Алгоритм выявления утечек инсайдерской информации финансовых рынков при инвестиционном консультировании
Аннотация:
Предмет исследования. Рассмотрена задача выявления утечек инсайдерской информации финансовых рынков при инвестиционном консультировании. Создан оригинальный набор данных, представляющий собой записи разговоров между операторами и клиентами, представленный в виде диалогов в текстовом формате. Изучена применимость методов машинного обучения для автоматизации выявления утечек, возникающих в разговоре между оператором и клиентом. Приведены результаты использования данных методов для построения и обучения классификатора: вероятностные (наивный байесовский классификатор), метрические (метод k-ближайших соседей), логические (случайный лес), линейные (метод опорных векторов), методы на основе искусственных нейронных сетей. Рассмотрены различные подходы к построению модели текстов на естественном языке, такие как токенизация (bag of words, n-граммы слов: биграммы и триграммы) и векторизация (one hot encoding). Метод. Предлагаемый алгоритм выявления утечек базируется на применении метода опорных векторов (SVM) и токенизации по биграммам слов. Основные результаты. Полученные результаты демонстрируют, что использование SVM и токенизация по биграммам обеспечивают наиболее высокое качество выявления утечек. Практическая значимость. Результаты исследования могут найти применение при разработке программных систем и комплексов защиты информации, а также для дальнейшего развития методов обработки естественного языка применительно к задачам информационной безопасности.
Ключевые слова:
Постоянный URL
Статьи в номере
- Концепция фотограмметрической обработки данных непрямой оптической локации
- Сенсорный элемент рефрактометра пластового флюида на основе полного внутреннего отражения
- Метод исследования цветопередачи цифровых камер
- Анализ методов определения центра пятна рассеяния в присутствии аберраций
- Исследование точности измерения параметров удаленных объектов, наблюдаемых оптико-электронной системой с регистратором светового поля
- Оценка допустимых ошибок позиционирования пикселов при отображении на носителе синтезированных голограмм-проекторов для проекционной фотолитографии
- Исследование пироэлектрического спонтанного переключения доменов в межэлектродном зазоре фазового модулятора на основе титан-диффузионных волноводов в кристаллах ниобата лития
- Синтез адаптивного наблюдателя для нестационарных нелинейных систем с неизвестными полиномиальными параметрами
- Разработка новой плазменной технологии получения чистого белого корунда
- Исследование динамических свойств стальных деталей, получаемых методом 3D-печати
- Эффективный механизм выявления и противодействия ARP-спуфинг атакам в программно-определяемых сетях
- Исследование численных подходов к моделированию крупномасштабных турбулентных вихревых течений на режиме вертикального взлета и посадки летательного аппарата
- Математическое моделирование и идентификация параметров модели надводного судна
- Методологическая поддержка рабочей группы при решении задачи прогнозирования результатов классификационной экспертизы
- Автоматическое определение типа аллергии из неструктурированных медицинских текстов на русском языке
- Анализ методик оценки рисков информационной безопасности кредитно-финансовых организаций